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摘 要 : [目的 /意义 ] 为 旅游 景 
[方法 /过 程 ] 首先 ,设计 包 
过 滤 的 显 式 标签 生成 方法 ， 隐 式 标签 
成 景点 文化 资源 标签 ;最 后 ,针对 旅游 信 ， 


果 / 结 te 进行 实证 研究 ,名 
的 检索 和 推荐 方法 均 具备 较 强 的 可 解释 性 ,可 有 效 提升 信 ， 


文化 资源 特征 ,基于 标签 


谨 人 的 文化 资源 标签 ,解决 文化 旅游 服务 中 信 ， 
显 式 和 隐 式 两 种 标签 类 型 的 文化 资源 标签 
签 中 文化 感知 强度 和 文化 感知 相似 度 的 计算 方法 ,并 基于 以 上 方法 生 


息 服 务 中 的 不 同 场景 ,提出 基于 文化 资源 标签 


息 检 索 困 难 、 推 荐 形式 单一 的 问题 。 
签 体系 ;然后 ,提出 基于 特征 词 筛选 和 噪声 词 


的 检索 和 推荐 方法 。 [ 结 
秸 果 表明 ,基于 本 文 方法 生成 的 标签 能 够 准确 刻画 景点 的 
息 服务 的 透明 度 和 用 户 对 结果 


的 信任 度 , 对 其 他 领域 的 推荐 解释 性 研究 具有 参考 价值 。 

me. 旅游 信息 服务 ”标签 生成 
(C24 
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资源 检索 ”旅游 推荐 


罗 共 能 更 好 地 满足 旅游 者 日 益 增 长 的 精神 文化 需求 ， 
攻 注 到 越 来 越 多 旅游 者 的 喜爱 "。 景 点 是 文化 的 载 
体 3 合 着 丰富 的 文化 资源 ,但 景点 文化 资源 的 多 样 性 


个 性 化 推荐 中 发 挥 着 十 分 重要 的 作用 。 标 签 易于 理 
解 和 便于 处 理 的 特性 使 其 同样 适用 于 对 旅游 资源 的 组 
织 管理 ,如 果 标 签 能 够 全 面 ,准确 地 描述 景点 的 文化 资 
源 ,那么 用 户 就 可 以 根据 标签 内 容 快 速 获 知 景点 的 文 
化 特征 ,在 线 旅 游 平台 也 可 以 基于 标签 提供 更 好 的 检 
Ts 移动 互联 网 和 在 线 旅游 的 快速 发 展 使 


和 了 情 户 文化 偏好 的 差异 性 使 得 用 户 在 8 行 前 往往 需要 
查 响 大 量 信息 息 ,才能 找到 感 兴趣 的 景点 。 调 查 发 现 , 知 
名 焊 和 用 户 数 都 排名 前 前 列 的 在 线 旅游 服务 平台 如 携 
稳 (马蜂 窜 ` 猫 途 座 等 ,只 包含 有 少量 大 众 化 的 文化 旅 
游 相关 信息 ,如 携程 网 提供 了 以 “人 文 旅游 ”为 主题 的 
旅游 产品 , 猎 途 座 对 “历史 遗迹 ”“ 圣 地 与 宗教 ”等 类 型 
的 景点 进行 了 聚 类 ,但 都 没有 提供 专门 针对 文化 旅游 
信息 的 检索 和 推荐 服务 ,用 户 正面 临 着 信息 检索 困难 ， 
ian 因此 ,如 何 充分 挖掘 和 准确 描 


得 网 络 上 产生 了 大 量 在 线 旅游 信息 ,如 旅行 游记 、 用 户 
的 旅游 体验 ,而且 从 不 同 角度 对 景点 的 资源 和 服务 进 
行 了 描述 和 评价 。 因 此 ,笔者 将 通过 挖掘 在 线 旅游 信 
息 ,生成 质量 较 高 的 景点 文化 资源 标签 ,为 文化 旅游 信 
息 的 检索 和 推荐 服务 竟 定 基础 。 


2 _ 相关 研究 
本 文 旨 在 通过 挖掘 在 线 旅游 信息 ,自动 生成 可 应 


述 景点 的 文化 资源 ,为 具有 不 同文 化 偏好 的 用 户 提 供 


用 于 文化 旅游 信息 服务 的 景点 标签 。 因 此 ,本 文 的 研 


精准 化 的 检索 和 推荐 服务 ,是 当前 取 需 解决 的 问题 。 
标签 是 指 能 够 反映 资源 关键 特征 的 词 或 短语 , 因 
能 够 有 效 提升 资源 组 织 管理 的 效率 ,受到 了 学 界 和 

业界 的 共同 关注 | ”…”。 国 内 具有 代表 性 的 社会 化 网 站 

如 豆瓣 、 知 乎 , 微 博 等 ,标签 在 其 资源 分 类 ,信息 检 索 和 


究 内 容 主要 涉及 标签 自动 生成 与 景点 标签 两 个 方面 ， 
本 节 将 从 这 两 个 方面 对 相关 研究 进行 梳理 和 总 结 。 
2.1 标签 自动 生成 研究 

标签 生成 是 标签 应 用 的 前 提 , 目前 标签 生成 主要 
有 3 种 方式 :四 用 户 标 注 ;@) 专 家 或 管理 者 标注 ;@) 算 
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法 自动 生成 5 。 社 会 化 网 站 能 够 拥有 大 量 标签 得 益 于 
用 户 群 体 的 自发 标注 ,然而 部 分 在 线 平 台 虽 然 也 拥有 
一 定 规模 的 用 户 , 但 由 于 没有 开放 用 户 标 注 功能 或 开 
放 时 间 较 晚 ,导致 没有 标签 或 标签 数量 不 足 。 此 外 , 随 
着 大 数据 时 代 的 到 来 ,很 多 行业 的 数据 量 都 急剧 增长 ， 
数据 更 新 速度 越 来 越 快 ,这 使 得 由 专家 或 管理 者 人 工 
添加 标签 的 方式 存在 一 定 的 操作 性 和 时 效 性 问题 。 因 
此 ,如 何在 尽 可 能 减少 人 工 参与 的 情况 下 ,通过 算法 自 
动 生成 高 质量 标签 ,成 为 了 研究 的 重点 。 

目前 已 有 学 者 在 视频 9 、 医 疗 57 社交- 、 知 
识 服务 "~" 等 多 个 领域 开展 了 相关 研究 ,并 提出 了 适 


景点 推荐 方法 ,但 使 用 的 标签 均 由 人 工 生 成 ; 史 一 帆 
等 “通过 引入 景点 类 型 标签 信息 ,提出 了 基于 用 户 社 
会 关系 和 景点 标签 的 协同 过 滤 推 荐 算法 ,实验 表明 该 
方法 具有 更 高 的 推荐 准确 率 。 但 文中 使 用 的 景点 类 型 
标签 同样 是 由 人 工 生成 , 且 标 签 内 容 仅 包 含 了 “湖泊 、 
河流 “山岳 .山岭 "等 对 景点 的 高 度 概 述 ,无 法 通过 该 
标签 获知 更 多 与 景点 相关 的 信息 。 此 外 ,还 发 现 了 少 
量 与 游客 画像 .景点 实体 识别 相关 ,同时 也 涉及 标签 生 
成 的 研究 ”i。 例 如 , 单 晓 红 等 '” 以 携程 网 的 酒店 评 
论 为 基础 ,通过 抽取 用 户 信 息 属 性 、 酒 店 信息 属性 和 评 
价 信息 属性 ,构建 了 用 户 画 像 和 酒店 特征 画像 ;刘海 鸣 
等 "基于 游客 基本 信息 标签 ,行为 信息 标签 与 情境 信 


用 于 领域 数据 的 标签 自动 生成 方法 。Z，Shen 等 四 提 
出 了 基于 传感器 元 数据 的 户外 视频 自动 标注 方法 ,该 
罚 法 首先 将 视频 中 的 场景 建 模 为 几何 形状 ,然后 通过 
地 更 信息 数据 库 查 询 几何 形状 对 应 的 地 理 对 象 , 并 提 
取 苇 文本 信息 作为 视频 标签 ; 孟 晴 秋 等 中 基于 医生 在 
线 间 诊 文本 信息 ,提出 了 结合 时 间 周 期 特征 与 文本 主 
题 策 征 的 医生 标签 自动 生成 算法 ; 匡 小 兰 等 中 提出 了 


如 


结合 用 户 关系 网 和 标签 共 现 网 的 微 博 用 户 标签 预测 方 


涛 :该 方法 首先 使 用 带 重启 的 随机 游 走 模型 生成 候选 
栋 血 ,然后 基于 标签 链 抽 取 候选 标签 推荐 给 目标 用 户 ; 
熊 回 香 等 "提出 了 基于 LDA 主题 模型 的 微 博 标签 生 
成 济 法 ,该 方法 首先 根据 主题 模型 和 用 户 微 博 生 成 预 
选 尿 签 , 然 后 通过 分 析 用 户 关注 的 人 及 用 户 粉 丝 的 微 
博 骆 预选 标签 进行 控制 ,生成 最 终 标签 ;L，Zeng 等 " 
结交 软件 工程 经 验 知识 和 深度 学 习 算 法 ,提出 了 一 种 
代 策 标签 生成 方法 ; 赵 辉 等 "5 以 科技 管理 部 门 的 情报 
需 赤 为 研究 对 象 ,利用 主题 词 抽取 .TF-IDF 等 自然 语 
言 处 理 算法 生成 特征 标签 ,并 利用 协同 过 滤 、 标 签 关联 
等 推荐 算法 为 具有 相似 特征 的 科技 管理 组 织 提供 内 容 
推荐 。 此 外 ,对 标签 生成 质量 的 评估 也 是 研究 的 重点 ， 
李 芋 等 "比较 分 析 了 多 种 标签 质量 评估 方法 ,并 将 已 
有 方法 划分 为 人 工 评估 、 基 于 标签 自身 统计 属性 ,依据 
规范 词语 等 8 种 不 同类 型 。 章 成 志 等 以 图 片 标签 "9 、 
博文 标签 "” "为 对 象 开展 了 系列 研究 ,提出 标签 的 社 
会 化 属性 可 以 作为 区 分 标签 质 量 的 重要 特征 ,并 通过 
融合 标签 内 容 属性 和 社会 化 属性 训练 得 到 了 具有 更 高 
性 能 的 标签 质量 自动 评估 模型 。 
2.2 景点 标签 研究 

虽然 基于 信息 挖掘 的 标签 自动 生成 在 以 上 领域 已 
取得 了 一 定 成 果 , 但 旅游 领域 中 相关 研究 却 很 少 , 且 研 
究 重心 均 是 标签 应 用 而 非 标 签 生成 。 例 如 , 李 雅 美 
等 提出 了 基于 地 域 .时间 .主题 .类 型 等 特征 标签 的 


息 标 签 ,结合 本 体 方法 构建 了 游客 用 户 画 像 , 并 提出 了 
基于 用 户 画 像 的 旅游 情境 化 推荐 模型 。 

梳理 文献 发 现 ,已 有 与 景点 标签 相关 的 研究 在 标 
签 生成 和 标签 应 用 上 都 存在 一 定 不 足 。 首 先 ,在 景点 
标签 生成 方法 上 ,已 有 研究 大 多 局 限于 使 用 人 工 的 方 
式 获取 所 需 的 景点 标签 ,这 不 仅 需 要 耗费 大 量 人 力 ,还 
可 能 因为 人 力 不 足 或 时 间 不 够 ,导致 生成 的 标签 存在 
数量 较 少 ,粒度 较 粗 .内 容 较 单 一 等 问题 , 且 标 签 更 新 
成 本 很 高 。 其 次 ,在 景点 标签 生成 视角 上 ,已 有 研究 虽 
然 从 不 同 维度 生成 了 景点 标签 ,但 对 景点 文化 资源 信 
息 进 行 描述 的 标签 很 少 , 且 目 前 尚未 发 现 较为 完善 的 
景点 文化 资源 标签 体系 。 再 次 ,在 景点 标签 应 用 上 ,已 
有 研究 主要 关注 于 如 何 基于 标签 进行 景点 推荐 ,而 对 
景点 检索 方法 的 研究 较 少 。 针 对 上 述 问 题 ,笔者 从 文 
化 旅游 视角 出 发 ,设计 景点 文化 资源 标签 体系 ,提出 景 
点 文化 资源 标签 自动 生成 方法 ,通过 对 在 线 旅游 信息 
的 挖掘 ,实现 在 只 有 少量 人 工 参 与 的 情况 下 ,自动 生成 
可 应 用 于 文化 旅游 信息 检索 和 推荐 的 高 质量 标签 。 


3 ”研究 框架 与 关键 步骤 


3.1 研究 框架 

本 研究 包括 3 个 子 任务 :中 设计 景点 文化 资源 标 
签 体 系 ; 思 设计 标签 生成 算法 并 生成 各 维度 标签 ;@ 分 
析 标 签 应 用 场景 ,展示 具体 应 用 实例 。 针 对 以 上 任务 ， 
构建 了 图 1 所 示 的 研究 框架 ,包括 标签 体系 设计 数据 
采集 与 预 处 理 、 标 签 生 成 及 可 视 化 .标签 应 用 4 个 步 
了 又。 首先 ,以 文化 层次 理论 为 基础 ,结合 旅游 信息 服务 
中 用 户 的 实际 需求 ,设计 包含 显 式 和 隐 式 两 种 类 型 的 
景点 文化 资源 标签 体系 ;其 次 ,从 在 线 旅游 服务 平台 采 
集 景 点 文化 主题 数据 和 景点 评论 语 料 , 并 对 数据 进行 
清洗 转换 分词 .去 停 用 词 等 处 理 ; 然 后 ,设计 标签 生 
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成 算法 ,生成 各 景点 的 文化 资源 标签 ,并 通过 词 云 图 和 
数据 表 对 标签 进行 可 视 化 展示 ;最 后 ,以 景点 的 检索 和 


推荐 为 例 , 分 析 文 化 资源 标签 在 旅游 服务 场景 中 的 具 
体 应 用 。 


标签 体系 设计 数据 采集 与 预 处 理 标签 生成 及 可 视 化 标签 应 用 
| 显 式 标 签 | | 数据 源 | 构建 特征 词 表 和 噪声 词 表 ee 景 点 检索 | 
| ”物质 文化 |! | Iron | V 1 [ ”基于 标签 内 容 的 检索 ] | 
| 1 | ! 厂 景点 文化 主题 i 1 | 
| 寺 rl 1 | | [人 工分 类 关键 启 第 选 与 过 滤 ] | | | 广 二 于 标 不 计 又 交 术 | 
| 2 本 1 | ! 景点 评论 语 料 J | 
Es | 一 Es Se 
I | 
| 2 | 
!| 文化 主题 J | 数据 清洗 ! 算法 实现 ! 基于 显 式 标签 的 推荐 ! 
人 a 
a | (ms mie | | 
! 人 人 有 ER 三 
ed 1 


图 1 研究 框架 


3 豆 ” ”关键 步 又 
3 标签 体系 设计 


标签 体系 的 设计 综合 考虑 了 4 个 方面 因素 :QD 文 


和 ; 国 景点 文化 资源 自身 特点 ;四 用 户 对 文化 旅 
游 信息 服务 的 实际 需求 。 标 签 体系 设计 的 具体 过 程 和 


如 下 :首先 ,文化 层次 理论 认为 文化 由 3 个 维度 构 


签 体系 中 加 入 了 文化 主题 标签 。 再 次 ,用 户 在 进行 旅 
游 决策 时 ,不仅 需要 知道 景点 是 否 包 含 了 自己 感 兴 

的 文化 资源 ,同时 也 会 关注 其 他 用 户 对 该 文化 资源 进 
行 感知 体验 的 实际 情况 ,因此 设计 了 文化 感知 强度 标 
签 ,将 用 户 对 文化 资源 的 感知 程度 进行 量化 表示 。 最 
后 ,为 用 户 推荐 相似 景点 的 前 提 是 获知 各 景点 在 文化 
特征 上 的 相似 度 ,因此 设计 了 文化 感知 相似 度 标 签 , 当 


一 


。 在 已 


人 人 
以 实 化 层次 理论 为 基础 ,将 游客 文化 感知 分 为 文化 氛 
恒 感 知 和 文化 产品 感知 ,其 中 文化 产品 感知 的 主要 内 
容 它 一 是 对 文化 活动 的 感知 。 因 此 基于 已 有 研究 成 
果 E 设 计 了 物质 文化 标签 . 非 物 质 文 化 标签 和 文化 活动 
标 鲍 。 其 次 ,文化 主题 能 够 有 效 反映 景点 文化 资源 的 
类 型 特征 ,一 方面 旅游 门户 网 站 可 以 对 具有 相同 文化 
主题 的 景点 进行 聚 类 和 展示 , 另 一 方面 用 户 可 以 根据 
自己 的 文化 偏好 快速 查找 相应 主题 的 景点 ,因此 在 标 


已 知 用 户 对 某 个 景点 感 兴 趣 时 ,可 以 基于 景点 间 的 相 
似 度 为 其 推荐 相似 景点 。 

笔者 按 生 成 方式 的 不 同 将 上 述 标签 分 为 显 式 和 隐 
式 两 类 。 其 中 , 显 式 标签 指 可 利用 TF-IDF 、Tex- 
tRank' 等 算法 ,直接 从 文本 中 抽取 的 关键 词 或 短语 ， 
如 "青花 克 ,越王 勾践 剑 " 。 隐 式 标签 指 需要 对 显 式 数 
据 进行 统计 分 析 后 才能 得 到 的 信息 ,如 文化 感知 强度 、 
文化 感知 相似 度 。 此 外 ,由 于 文化 主题 标签 同样 无 法 
直接 从 文本 中 抽取 得 到 ,因此 将 文化 主题 标签 也 划分 
为 隐 式 标签 ,标签 体系 具体 内 容 如 表 1 所 示 : 


表 1 景点 文化 资源 标签 体系 


标签 类 型 标签 内 容 标签 概念 及 生成 方法 
显 式 标签 物质 文化 标签 于 描述 景点 物质 文化 资源 的 文本 型 标签 ,利用 算法 从 评论 数据 中 抽取 
非 物质 文化 标签 于 描述 景点 非 物质 文化 资源 的 文本 型 标签 ,利用 算法 从 评论 数据 中 抽取 
文化 活动 标签 于 描述 景点 文化 活动 资源 的 文本 型 标签 ,利用 算法 从 评论 数据 中 抽取 
隐 式 标签 文化 主题 标签 于 描述 景点 文化 资源 类 型 特征 的 文本 型 标签 ,从 在 线 旅游 服务 平台 “ 望 路 者 旅游 网 "获取 
文化 感知 强度 标签 于 描述 用 户 对 景点 文化 资源 认 知 和 体验 程度 的 数值 型 标签 ,通过 挖掘 显 式 标签 数据 获取 。 用 1 - 10 表示 ,数值 
越 大 ,强度 越 强 。 文 化 感知 强度 包括 3 个 指标 :中 整体 文化 感知 强度 ;@ 基 于 文化 主题 标签 的 文化 感知 强度 ;@ 基 
于 显 式 标签 的 文化 感知 强度 
文化 感知 相似 度 标 签 于 描述 用 户 对 不 同 景点 的 文化 资源 产生 相似 感知 的 程度 ,通过 挖掘 显 式 标签 数据 获取 。 用 归 一 化 后 的 0 -1 表 


示 ,数值 越 大 ,相似 度 越 高 


3.2.2 标签 生成 方法 
《1) 显 式 标签 生成 。 景 点 的 文化 资源 可 分 为 物质 


文化 . 非 物质 文化 和 文化 活动 3 类 ,景点 文化 资源 既是 
用 户 进 行 旅游 决策 的 重要 依据 ,也 是 用 户 在 旅游 过 程 
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中 感知 体验 的 主要 对 象 。 用 户 评论 可 以 真实 反映 用 户 
对 景点 中 各 类 文化 资源 的 感知 情况 ,评论 中 的 高 频 要 
素 反 映 了 用 户 共 同 关注 的 文化 吸引 物 。 因 此 ,笔者 通 


i 


[a 


过 提取 评论 中 不 同 词性 的 高 频 词 和 高 频 短 语 4 
标签 ,具体 流程 如 图 2 所 示 : 


分 词 、 去 停 用 记 高 频 词 表 | | 
词性 标注 高 频 名 词 人 工 筛选 “| | 。 特征 词 表 噪声 词 表 “| | 
所 有 实 风 景点 | 二话 高 频 动词 。 | 六 | 名 词 动词 短语 || 名 词 动词 短语 | 
评论 场 料 SA 
到 词 频 统计 高 频 短语 Lp rp 噪声 词 过 渡 】 目标 景点 显 式 标签、 1 
1 物质 文化 标签 | 
高 频 刘表 剩余 高 频 词 = 未 签 集 D，| ! | ” 非 物 质 文化 标签 
i 衬 用 河 。 洞 性 标注 词 师 综 ji TF-IDF 关 键 词 筛选 1 1 
分 词 、 去 停 用 词 、 词 性 标注 、 词 频 统计 高 频 名 语 TextRank 关 键 词 筛选 | 文化 生动 信和 
目标 景点 用 户 高 频 动词 [一 2 
评论 语 料 高 频 短语 候选 标签 集 六 | 全 j 
分 间 、 去 停 用 词 二 澡 | 加 入 人 工分 类 
短语 抽取 
词 频 统计 


图 2 显 式 标签 生成 流程 


显 式 标签 生成 包括 3 个 主要 步骤 ,具体 如 下 :@D 构 
建屋 征 词 表 和 噪声 词 表 。 将 所 有 实验 景点 的 评论 语 料 
全 3 和 为 一 个 文档 ,对 其 进行 分 词 .去 停 用 词 . 词 性 标注 
fi 短语 抽取 等 处 理 , 其 中 分 词 和 词性 标注 使 用 Jieba 工 
具 因 ,去 停 用 词 使 用 哈工大 停 用 词 表 , 短 语 抽取 指 合 
并 得 邻 词汇 获取 2 - gram 短语 。 由 于 物质 文化 和 非 物 
化 标签 多 为 名 词 ,文化 活动 标签 多 为 动词 ,因此 提 
取 词 频 最 高 的 前 V, 个 名 词 .前 N, 个 动词 和 前 W, 个 短 
语 构 成 高 频 词 表 。 然 后 从 高 频 词 表 中 人 工 选取 符合 要 
后 词 汇 和 短语 作为 特征 词 , 存 人 特征 词 表 , 剩 下 的 所 
有 启 作 为 噪声 词 , 存 人 噪声 词 表 。@@ 提 取 目 标 景点 标 
铝 s 首 先 ,对 目标 景点 的 评论 语 料 进 行 预 处 理 ,将 提取 
的 高 频 短 语 加 入 Jieba 自 定义 词典 ,其 目的 在 于 利用 
THEDF TextRank 提取 关键 词 时 ,短语 能 够 作为 一 个 束 
ee 
取 局 频 最 高 的 前 7, 个 名 词 .前 7 个 动词 和 前 7 个 短 
语 构 成 目标 景点 的 高 频 词 表 。 其 次 ,使 用 特征 词 表 对 
高 频 词 进行 筛选 ,得 到 目标 景点 的 候选 标签 集 D, 和 剩 
余 高 频 词 。 然 后 ,分 别 使 用 算法 从 评论 语 料 中 提取 得 
分 最 高 的 前 N 个 关键 词 , 得 到 关键 词 表 K, .K, ,依次 使 
用 噪声 词 表 和 关键 词 表 K, .K, 对 剩余 高 频 词 进行 过 小 
和 筛选 ,得 到 候选 标签 集 D,。 最 后 ,合并 D, .D, ,得 到 
目标 景点 的 显 式 标签 集合 D。@@ 标 签 分类。 对 集合 D 
进行 人 工分 类 ,得 到 物质 文化 标签 . 非 物 质 文化 标签 和 
文化 活动 标签 。 

(2) 文 化 主题 标签 生成 。 望 路 者 旅游 网 (whlyw. 
net) 是 一 个 旅游 信息 服务 平台 ,平台 通过 人 工 的 方式 
对 景点 的 文化 主题 进行 了 标注 ,并 以 市 级 行政 区 为 单 
位 , 按 文化 主题 的 不 同 对 景点 进行 聚 类 。 以 武汉 市 为 
例 , 平 台 搜集 了 武汉 市 69 个 文化 旅游 景点 的 相关 信 


息 ,并 将 其 聚 类 到 以 生态 文化 .建筑 文化 .名 人 文化 为 
主 的 22 个 不 同文 化 主题 下 ,同一 个 景点 根据 文化 资源 
的 特征 , 既 可 以 只 归属 于 一 个 主题 ,也 可 以 同时 归属 于 
多 个 主题 。 笔 者 从 望 路 者 旅游 网 采集 研究 所 需 的 文化 
主题 信息 ,并 将 采集 到 的 “文化 主题 一 景点 ”矩阵 转换 
为 “景点 一 文化 主题 " 矩阵 ,得 到 每 一 个 景点 对 应 的 文 
化 主题 标签 。 

(3) 文 化 感知 强度 标签 生成 (cultural perception in- 
tensity，CPI) 。 文 化 感知 强度 指 用 户 在 实际 旅游 中 对 
景点 文化 资源 的 认 知 和 体验 程度 , 认 知 越 深 、 体 验 越 丰 
富 ,获得 的 文化 感知 越 强 。 笔 者 对 文化 感知 强度 进行 
量化 ,设计 了 整体 文化 感知 强度 .基于 文化 主题 标签 的 
文化 感知 强度 和 基于 显 式 标签 的 文化 感知 强度 3 个 指 
标 ,计算 方法 如 下 : 

。 整体 文化 感知 强度 。 以 景点 为 计算 对 象 ,每 一 
个 景点 对 应 一 个 整体 文化 感知 强度 。 用 户 的 感知 强度 
会 受到 物质 文化 , 非 物 质 文化 和 文化 活动 的 共同 影响 ， 
户 在 评论 中 提 及 的 文化 资源 对 象 越 多 ,文化 属性 词 
汇 出 现 的 频率 越 高 ,说 明 其 获得 的 感知 越 强 。 因 此 , 笔 
者 将 所 有 显 式 标签 词 频数 的 加 权 平 均 定 义 为 整体 文化 
感知 强度 指标 ,如 公式 (1) 所 示 : 
人 公式 (1) 

其 中 ,CPI(5,) 表 示 景 点 5, 的 整体 文化 感知 强度 ， 
数值 3 表示 3 种 不 同类 别 的 显 式 标 签 ,m, 表示 第 i 类 
标签 包含 的 标签 个 数 ,w, 表示 第 i 类 标签 的 权重 ,n; 表 
示 第 i 类 标签 中 第 j 个 标签 的 词 频数 ,N 表示 目标 景点 
的 评论 总 数 。 

。 基于 文化 主题 标签 的 文化 感知 强度 。 以 文化 
主题 标签 中 的 不 同 主题 为 计算 对 象 ， 个 主题 对 应 
一 个 文化 感知 强度 。 计 算 该 指标 有 两 个 目的 :一 是 比 
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CPI(S,) = 
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较 用 户 对 同一 景点 的 不 同文 化 主题 的 感知 差异 ,例如 
景点 “东湖 "包含 “生态 文化 、 楚 文化 ”两 种 文化 主题 ， 
但 用 户 对 “生态 文化 ”的 感知 强度 明显 高 于 “ 楚 文 化 ”; 
二 是 比较 用 户 对 不 同 景点 的 同一 文化 主题 的 感知 差 
异 , 例 如 “ 黄 知 楼 "和 “毛泽东 同志 旧居 ”都 包含 “建筑 
文化 ,名 人 文化 ” 两 种 文化 主题 ,但 用 户 对 黄 知 楼 “ 建 
筑 文化 ”的 感知 强度 明显 高 于 毛泽东 同志 旧居 ,而 对 毛 
泽 东 同志 旧居 “名 人 文化 ”的 感知 强度 明显 高 于 黄 锥 
楼 。 由 于 以 上 差异 的 存在 ,笔者 对 不 同 主题 的 文化 感 
知 强度 进行 量化 表示 ,考虑 到 主题 所 包含 的 标签 的 数 
量 和 词 频 与 感知 强度 正 相 关 , 因 此 设计 了 以 下 计算 方 
法 ,如 公式 (2) 所 示 : 


公式 (2) 


中 ,CPI(7,) 表 示 主 题 7 的 文化 感知 强度 ,m 表 
题 7 包含 的 标签 个 数 ,n, 表示 第 j 个 标签 的 词 频 
表示 目标 景点 的 评论 总 数 。 

己 。 基 于 显 式 标签 的 文化 感知 强度 。 以 不 同类 别 
的 最 式 标签 为 计算 对 象 , 每 一 类 显 式 标签 对 应 一 个 文 
做 右 知 强度 。 计 算 该 指标 的 目的 在 于 比较 用 户 对 不 同 
景 起 的 同一 类 显 式 标签 的 感知 差异 ,例如 "恩施 土家 女 
用 莽 " 有 摆手 舞女 儿 会 .器 嫁 等 丰富 的 民俗 表演 ,用 户 
对 总 “文化 活动 "的 感知 强度 会 明显 高 于 “ 黄 鹅 楼 "“ 东 
湖 2 景点 。 因 此 ,在 计算 得 到 每 一 个 景点 包含 的 各 类 
标签 的 文化 感知 强度 后 , 便 可 以 根据 用 户 偏好 提 
供 小 荐 。 例 如 用 户 的 需求 是 寻找 "文化 活动 "丰富 的 
景 遍 ,就 可 以 根据 "文化 活动 "标签 感知 强度 的 高 低 对 
景 吕 进行 排序 ,得 到 推荐 列表 。 计 算 方法 如 公式 (3 ) 
所 示 : 


CPICT) = 


公式 (3) 


其 中 ,CPI(E,) 表 示 E, 类 标签 的 文化 感知 强度 ,mm 
表示 五 类 标签 包含 的 标签 个 数 ,nj 表示 第 j 个 标签 的 
词 频数 ,N 表示 目标 景点 的 评论 总 数 。 

(4) 文 化 感知 相似 度 标签 生成 (cultural perception 
similarity, CPS) 。 文 化 感知 相似 度 指 用 户 在 旅游 时 对 
不 同 景点 的 文化 资源 产生 相似 感知 的 程度 。 由 于 显 式 
标签 是 基于 用 户 感 知 结果 生成 的 对 景点 文化 资源 的 描 
述 , 所 以 不 同 景点 的 显 式 标签 在 语义 上 越 相 近 , 用 户 在 
景点 产生 的 文化 感知 就 越 相 似 。 因 此 ,笔者 设计 了 一 
种 基于 标签 语义 相关 性 的 文化 感知 相似 度 计算 方法 ， 
具体 包括 以 下 3 个 步 又: 

其 一 ,获取 标签 词 向 量 。 基 于 Word2Vec ”” 训 


CPI(E) = 


练 生成 的 词 向 量 能 够 有 效 表示 词语 之 间 的 语义 关系 ， 
并 可 以 通过 计算 词 向 量 的 余弦 距离 度量 词 与 词 的 相似 
度 。 笔 者 以 所 有 景点 的 评论 数据 为 语料库 ,使 用 Py- 
thon 的 Censim 工具 包 进 行 Word2Vec 词 问 量 训练 , 训 
练 算法 选择 Skip_gram, 词 向 量 维度 设置 为 128 ,训练 得 
到 每 个 标签 的 向 量 表示 。 

其 二 ,计算 文化 感知 特征 向 量 。 显 式 标 签 反 映 了 
日 户 文化 感知 的 具体 内 容 , 文 化 感知 特征 向 量 是 对 文 
化 感知 内 容 的 向 量化 表示 ,笔者 借鉴 文本 向 量化 的 方 
法 ,对 所 有 显示 标签 的 词 向 量 进行 加 权 平 均 , 其 中 标签 
的 权 值 等 于 经 过 标准 化 处 理 后 的 TF 值 。 特 征 向 量 的 
计算 公式 如 下 : 


| 


“1 Hf vec, 


ala) 公式 (4) 


其 中 ,Vec (5, ) 表示 景点 3 的 文化 感知 特征 向 量 ， 
tf; 表示 第 i 个 标签 的 TF 值 ,vec, 表示 第 i 个 标签 的 词 
向 量 ,n 表示 标签 总 数 。 

其 三 ,计算 景点 文化 感知 相似 度 。 余 弦 相 似 度 常 
被 用 于 评估 向 量 之 间 的 相似 性 ,因此 笔者 通过 计算 特 
征 向 量 的 余弦 值 来 评估 景点 之 间 的 文化 感知 相似 度 ， 
计算 公式 如 下 : 


CPS(S,,S,) = 


Pi Vec(S,), x Vec(S,), 
V EVec(S),) x Er Vec(S,),)" 
公式 (5) 
首先 根据 上 述 方法 构建 景点 文化 感知 相似 度 矩 
阵 , 然 后 通过 查找 矩阵 ,就 可 以 获取 任意 景点 之 间 的 文 
化 感知 相似 度 。 


4 实验 与 结果 分 析 


本 方 将 使 用 真实 的 旅游 数据 对 所 提 方 法 进行 验 
证 ,具体 包括 显 式 标签 生成 及 评估 、 隐 式 标 签 生成 及 评 
佑 ,标签 展示 、 基 于 标签 的 景点 检索 以 及 基于 标签 的 景 
点 推荐 等 内 容 。 
4.1 数据 采集 与 预 处 理 

以 武汉 市 的 文化 旅游 景点 为 研究 对 象 ,使 用 Py- 
thon 语言 编写 网 络 爬 虫 程序 ,从 携程 网 (ctrip. com) 采 
集 了 评论 数 较 多 的 57 个 景点 下 34 785 位 用 户 的 
57 324 条 评论 数据 ,每 条 数据 都 包含 景点 名 称 、 用 户 
ID .评论 内 容 . 评 分 和 评论 时 间 等 信息 ,采集 时 间 截 至 
2021 年 3 月 。 对 数据 进行 以 下 预 处 理 : 中 剔除 内 容 为 
空 和 非 汉 字 的 评论 ;外 剔除 景点 名 称 `, 用 户 ID 和 评论 
内 容 都 相同 的 评论 。 经 过 以 上 处 理 ,最 终 得 到 有 效 评 
论 数据 57 122 条 ,数据 样 例如 表 2 所 示 : 
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表 2 用 户 评论 实验 数据 样 例 


景点 名 称 用 户 了 D 评论 内 容 评分 。 评论 时 间 
湖北 省 博物 馆 118 x B24 厚重 的 历史 , 馆 内 有 不 少 精品 ,博物 馆 本 身 的 建筑 也 很 有 楚 文 化 的 特色 5 2021 -02-13 
东湖 风景 区 小 汐 同 学 爱 旅游 景色 美 ,而 且 很 多 景点 是 免费 的 ,比如 行 吟 阁 ` 亚 洲 棋 院 ,都 是 很 漂亮 的 古风 建筑 5 2021 -02 -19 
古人 琴 台 mm41 sse 88 相传 是 俞 伯 牙 和 钟 子 期 高 山 流水 遇 知 音 的 地 方 ,有 天 下 知音 第 一 台 之 称 5 2020-09-10 
归 元 禅 寺 木 森 佛教 圣地 ,文化 底蕴 深厚 ,环境 不 错 。 寺 庙 里 面 可 以 数 罗汉 ,还 可 以 求 福 5 2020 -05 -15 
木兰 草原 M28 sx 86 小 火车 很 可 爱 , 烟 火 秀 很 美 , 舌 火 晚会 蕴含 着 丰富 多 彩 的 传统 文化 特色 5 2020-10-02 
武昌 起 义 纪念 馆 mercury97 院外 有 孙中山 先生 的 雕塑 ,院内 前 后 有 两 座 楼 ,前 身 是 鄂 军 都 督 府 ,颇具 气势 5 2018 -11 -21 


4.2 标签 生成 结果 
4.2.1 显 式 标签 生成 结果 

显 式 标签 包括 物质 文化 标签 , 非 物质 文化 标签 和 
文化 活动 标签 3 类 ,依据 3.2.2(1) 所 述 方法 进行 实 
验 ; 实 验 中 各 参数 的 取 值 为 N, = 1 000,N, =500,N, = 


500,7, =300,7, =500,7, =50,N =200。 生 成 显 式 标 
签 集 合 后 , 随机 选取 6 个 景点 ,使 用 词 云 工具 Word- 
Cloud ”进行 可 视 化 ,各 景点 的 标签 词 云图 如 图 3 
所 示 : 


> 表演 人 届 原 消 和 区 和 和 3 
袖 全 | 四 受 加 必 并 明光 山 色 

局 总 二 多 哮 亿 W28 和 法 模 花 准 避 高 山 流水 或。 
2 六 全 全 天 [上 > 二 介 8 和 
© 8&a 建 筑 文物 * 编 人 和 遇 落座 曙 散步 游船 E 伯 牙 请 时 月 湖 撩 让 
© 青铜 器 曾 修 乙 人 骨 化 石 。 fi 直 毛 主席 由 人 4 | 鼓 琴 3 湖 大 部 音乐 
< 十 (a) 湖北 省 博物 馆 (b) 东湖 风景 区 (c) 古琴 人 台 

对 像 祈福 和 藏 经 3 包 各 战歌 赶 营 演出 2 展览 ga 爱国 主义 首义 
局 人 关 2 和 烟花 射 知 s ka Her 红楼 壮 训 革命 全 小 楼 

建筑 生化 古刹 搓 背 单 蒙古 《4 多 鄂 军 都 督 府 反 

GN 法 师 丛林 电光 ie tT 表演 人 帐篷 - 军政 府 、 -二 下山 项 
© 双 面 观音 入 \ 作 监 雕塑 ) 黑 是 草原 间 出 民国 Re 
AM 五 os 香火 寺庙 古 树 将 格 桑 花 作息 WA 骑马 ， 舌 楼 房 半 “和 元 建筑 ， 
~ (d) 归 元 禅 寺 (e) 木兰 草原 (DD 武昌 起 义 纪念 馆 
< 3 景点 的 标签 词 云图 
© 


斧 观 察 词 云图 可 知 , 生 成 的 显 式 标签 能 够 较 好 地 描 
述 景点 的 文化 资源 特征 。 为 进一步 验证 所 提 方 法 在 显 
式 央 签 生成 上 的 性 能 ,分 别 使 用 TF-IDF TextRank 和 笔 
者 所 提出 的 方法 提取 关键 词 ,并 计算 3 种 方法 在 抽取 
5 -50 人 召回 率 和 也 
值 ” ,实验 结果 见 图 4。 

由 图 4 可 知 ,笔者 所 提 方 法 的 准确 率 、 召 回 率 和 
Fl 值 都 高 于 TF-IDF 和 TextRank, 当 抽取 的 关键 词 数量 
为 50 时 ,TF-IDF 和 TextRank 的 准确 率 、 召 回 率 和 FI 
值 普遍 低 于 40% , 且 在 不 同 景点 上 性 能 差异 较 大 ,在 
景点 “东湖 风景 区 ”上 3 个 指标 都 低 于 20% 。 本 文 方 
法 的 准确 率 .召回 率 和 Fl 值 普 遍 高 于 70% , 且 在 不 同 
景点 上 性 能 差异 较 小 ,具有 更 好 的 稳定 性 。 此 外 ,还 需 
说 明 的 是 ,虽然 笔者 所 提出 的 方法 在 构建 特征 词 表 和 
噪声 词 表 时 需 消 耗 一 定 人 工 , 但 实际 上 消耗 的 人 工 成 
本 很 低 , 构 建 针 对 武汉 市 57 个 景点 的 通用 特征 词 表 和 

噪声 词 表 共计 耗 时 约 25 分 钟 。 在 词 表 构建 完成 后 , 景 
点 的 显 式 标签 集合 便 可 通过 算法 自动 生成 。 


生成 显 式 标签 集合 后 , 按 类 别 对 标签 进行 分 类 ,分 
别 得 到 物质 文化 标签 . 非 物质 文化 标签 和 文化 活动 标 
签 , 见 表 3。 
4.2.2 隐 式 标签 生成 结果 

隐 式 标签 包括 文化 主题 标签 .文化 感知 强度 标签 
和 文化 感知 相似 度 标签 3 类。 首先, 依据 3.2.2(2) 所 
述 方法 ,得 到 各 景点 的 文化 主题 标签 , 见 表 4。 

然后 ,依据 3. 2.2(3 ) 所 述 方法 ,计算 各 景点 的 文 
化 感知 强度 。 文 化 感知 强度 包括 3 个 指标 , 表 5 显示 
了 整体 文化 感知 强度 和 基于 显 式 标签 的 文化 感知 强度 
的 计算 结果 , 表 6 显示 了 基于 文化 主题 标签 的 文化 感 
知 强度 计算 结果 。 在 计算 整体 文化 感知 强度 时 ,各 参 
数 的 取 值 为 W, =0.4,W, =0.2,W, =0.4。 强 度 值 均 
经 过 归 一 化 处 理 , 数 值 范 围 在 0 - 1 之 间 。 

由 表 5 中 整体 文化 感知 强度 计算 结果 可 知 ,用 户 
对 寺庙 和 博物 馆 类 型 的 景点 普遍 感知 较 强 ,在 Top10 
中 ,寺庙 有 古 德 寺 、 归 元 禅 寺 和 长 春 观 ,博物 馆 有 江汉 
关 博 物 馆 湖北 省 博物 馆 和 辛亥 革命 博物 馆 。 相 比 于 
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水 月 湖 古琴 事 音乐 子 期 历史 鼓 琴 抚琴 典故 知 
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表 4 景点 文化 主题 标签 


景点 文化 主题 标签 
湖北 省 博物 馆 历史 文化 楚 文 化 
黄 锥 楼 建筑 文化 名 人 文化 历史 文化 
东湖 生态 文化 楚 文 化 
户 部 巷 建筑 文化 历史 文化 商贸 文化 饮食 文化 
武汉 长 江 大 桥 建筑 文化 塔 桥 文 化 
武汉 大 学 生态 文化 建筑 文化 历史 文化 校 史 文化 
木兰 草原 生态 文化 名 人 文化 民族 文化 
毛泽东 同志 旧居 红色 文化 建筑 文化 名 人 文化 历史 文化 


古 萄 台 建筑 文化 名 人 文化 历史 文化 


其 他 景点 ,寺庙 和 博物 馆 的 空间 范围 相对 不 大 ,但 文化 
资源 却 十 分 丰富 ,寺庙 有 古 建筑 群 和 各 式 佛像 ,博物 馆 
有 大 量 文物 ,这 些 文化 资源 都 密集 地 呈现 在 用 户 面前 。 
此 交 , 寺 让 中 不 绝 于 耳 的 佛教 育 乐 和 念经 声 以 及 博物 
馆 昌 用 以 辅助 展示 的 灯光 和 设备 ,都 使 置身 其 中 的 用 
请 红 六 厚 的 文化 氛围 所 感染 ,进而 产生 了 更 强 的 文化 


感知 。 

使 用 户 产生 较 强 物质 文化 感知 的 景点 也 主要 是 寺 
庙 和 博物 馆 两 种 类 型 , 因 其 原因 和 整体 文化 感知 类 似 ， 
故 不 再 袭 述 。 结 合 非 物质 文化 感知 强度 Top10 中 各 景 
点 的 文化 资源 特征 可 知 ,计算 结果 与 景点 实际 情况 相 
符 。 例 如 ,强度 值 最 高 的 3 个 景点 古琴 台 .辛亥 革命 博 
物 馆 和 务 移 行宫 的 确 都 包含 了 广为人知 的 非 物质 文化 
资源 ,分 别 是 "高山流水 ”的 历史 故事 “辛亥 革命 ”的 
历史 事件 和 “大 各 治水 ”的 神话 传说 。 文 化 活动 感知 
较 强 的 景点 基本 都 属于 自然 生态 类 型 ,Top10 景点 中 
木兰 天 池 、 锦 里 沟 、 九 真山 、 东 湖 等 丝 是 如 此 。 其 原因 
是 自然 生态 类 景点 通常 依 山 傍 水 、 占 地 面积 广 ,景区 管 
理 者 可 因地制宜 地 开发 骑马 .射箭 和 敌 火 晚会 等 各 类 
文化 活动 ,进而 丰富 用 户 文化 体验 ,增强 文化 感知 。 通 
过 以 上 分 析 可 知 , 各 类 文化 感知 强度 计算 结果 与 实际 
情况 基本 相符 ,同时 也 证 明了 所 提 方 法 的 合理 性 和 准 
确 性 。 


© 表 5 整体 文化 感知 强度 和 基于 显 式 标签 的 文化 感知 强度 计算 结果 
必 整体 文化 感知 强度 Top10 物质 文化 感知 强度 Top10 非 物 质 文 化 感知 强度 Top10 文化 活动 感知 强度 Top10 
〇 景点 名 称 强度 值 景点 名 称 强度 值 景点 名 称 强度 值 景点 名 称 强度 值 
be 古 德 寺 1.0 古 德 寺 1.0 古琴 台 1.0 木兰 天 池 1.0 
© 归 元 禅 寺 0. 699 109 归 元 禅 寺 0.766 107 辛亥 革命 博物 馆 0. 655 690 锦 里 沟 0. 996 880 
NL 汉 关 博物 馆 0. 620 274 湖北 省 博物 馆 0.591 048 各 种 行宫 0.586 724 木兰 草原 0.909 282 
>” 策 牧 行宫 0.601 558 江汉 关 博 物 馆 0.579 189 古 德 寺 0.439 271 木兰 湖 0. 697 816 
ae 长 春 观 0.592 710 户 部 埠 0. 533 525 毛泽东 同志 旧居 0.430 477 木兰 清凉 寨 0. 647 800 
北 省 博物 馆 0.583 885 长 春 观 0. 500 065 首义 广场 0.424 389 九 真山 风景 区 0.596 424 
全 古琴 台 0.579 850 武汉 大 学 0.475 560 长 春 观 0.423 461 东湖 风景 区 0.586 962 
一 睛 川 阁 0. 465 949 吉庆 街 0.467 189 武昌 起 义 纪念 馆 0.389 667 东湖 磨 山 景 区 0.516 668 
G 包 山 公 革 0.459 711 宝 通 禅 寺 0. 460 823 江汉 关 博 物 馆 0.300 230 汉口 江 滩 公园 0.511 524 
辛亥 革命 博物 馆 0.458 839 汉阳 造 艺 术 区 0.448 900 龟 山 公园 0.221 162 海 昌 极地 海洋 公园 0.493 005 


由 表 6 中 数据 可 知 , 同 一 景点 不 同文 化 主题 的 感 
知 强 度 通常 存在 差异 ,例如 宝 通 禅 寺 的 宗教 文化 感知 
强 于 建筑 文化 感知 ,木兰 湖 的 生态 文化 感知 强 于 名 人 
文化 感知 。 不 同 景点 在 同一 文化 主题 上 的 感知 强度 通 
常 也 会 不 同 , 因 此 在 为 用 户 提供 基于 文化 主题 的 景点 


通 禅 寺 、 古 德 寺 都 包含 建筑 文化 \ 宗 教 文 化 ”。 而 相 
似 度 较 低 的 景点 通常 没有 相同 的 文化 主题 , 且 在 文化 
资源 内 容 上 差异 很 大 。 例 如 ,与 湖北 省 博物 馆 相 似 度 
最 低 的 景点 是 木兰 天 池 ,前 者 是 室内 的 文物 展览 ,后 者 


检索 和 推荐 时 ,可 按 强度 值 大 小 对 结果 进行 排序 。 
最 后 ,依据 3. 2.2(4) 所 述 方法 ,计算 景点 间 的 文 

化 感知 相似 度 ,相似 度 用 两 特征 向 量 的 余弦 值 表示 , 数 

值 范围 是 [ -1, 1]。 表 7 以 湖北 省 博物 馆 、 东 湖 风 景 


是 户外 的 生态 旅游 。 与 东湖 风景 区 相似 度 最 低 的 景点 
是 杜 水 夫人 蜡像 馆 , 前 者 是 户外 的 生态 旅游 ,后 者 是 室 
内 的 蜡像 展览 。 通 过 以 上 分 析 可 知 ,景点 间 文 化 感知 
相似 度 的 结果 与 实际 情况 基本 相符 。 此 外 ,为 进一步 
评估 隐 式 标签 生成 质量 ,笔者 采用 5 级 量 表 对 上 文中 


区 、 归 元 禅 寺 和 武昌 起 义 纪念 馆 为 例 ,展示 了 与 目标 景 
点 相似 度 最 高 和 最 低 的 部 分 景点 。 

从 计算 结果 可 以 看 出 ,相似 度 较 高 的 景点 通常 都 
包含 了 1-2 个 相同 的 文化 主题 ,例如 东湖 风景 区 、 东 
湖 磨 山 景 区 、 政 匣 山 都 包含 “生态 文化 ”, 归 元 禅 寺 、 宝 


表 5、 表 6、 表 7 的 结果 进行 专家 评测 ,用 “1 分 “2 分 ” 
“3 分 “4 分 ”5 分 "分 别 表示 结果 与 实际 情况 “很 不 
相符 ”“ 不 相符 “一 般 "“ 相 符 ”“ 很 相符 ” , 受 邀 被 调查 
人 员 是 7 位 对 武汉 市 景点 具有 和 较 高 熟悉 度 的 领域 专 
家 ,根据 调查 结果 统计 得 到 “文化 感知 强度 标签 ”相关 
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表 6 基于 文化 主题 标签 的 文化 感知 强度 计算 结果 


建筑 文化 Top10 生态 文化 Top10 宗教 文化 Top5 名 人 文化 Top10 
景点 名 称 强度 值 景点 名 称 强度 值 景点 名 称 强度 值 景点 名 称 强度 值 
古 德 寺 1.0 东湖 樱花 区 1.0 古 德 寺 1.0 古琴 台 1.0 

江汉 关 博 物 馆 0. 868 892 武汉 大 学 0.982 813 归 元 禅 寺 0. 846 795 毛泽东 同志 旧居 0.967 992 
汉口 近代 建筑 群 0.674 719 木兰 湖 0. 824 497 长 春 观 0.779 312 务 积 行宫 0.747 222 
鼻 种 行宫 0.594 276 中 国 地质 大 学 逸夫 博物 馆 ”0. 804 606 宝 通 禅 寺 0.655 872 包 山 公园 0.177 613 
江汉 路 步行 街 0.580 002 木兰 云雾 山 0.794 802 鱼 山 公园 0.004 872 杜 莎 夫人 蜡像 馆 0. 129 316 
宝 通 禅 寺 0.418 133 东湖 麻山 景区 0.719 060 武昌 起 义 纪念 馆 0. 126 199 
睛 川 阁 0. 396 360 金龙 水 寨 生态 乐 园 0.501 621 首义 广场 0. 106 525 
大 余 湾 0.390 042 木兰 天 池 0.486 021 木兰 油 0. 101 894 
武汉 大 学 0.286 057 木兰 清凉 寨 0. 480 483 政 珈 山 0. 076 420 
武汉 长 江 大 桥 0.248 631 东湖 风景 区 0.434 849 中 山 公园 0. 049 969 


表 7 景点 间 文 化 感知 相似 度 计算 结果 


夺 二 ”湖北 省 博物 馆 相 似 景点 东湖 风景 区 相似 景点 归 元 禅 寺 相似 景点 武昌 起 义 纪念 馆 相 似 景点 
> 景点 名 称 相似 度 景点 名 称 相似 度 景点 名 称 相似 度 景点 名 称 相似 度 
下 和 汉 市 二 易 休 0.935 667 东湖 磨 山 景区 0.755 117 宝 通 禅 寺 0.916 938 辛亥 革 命 博物 馆 0.997 418 
品 中 华 奇 石 馆 0.796 815 玫 珈 山 0.722 327 古 德 寺 0.913 906 毛泽东 同志 旧居 0.930 381 
CC 首义 广场 0.730 050 木兰 湖 0. 695 691 长 春 观 0. 852 768 首义 广场 0. 923 574 
虑 园地 质 大 学 逸 天 博物 馆 0.729 626 张 公 山寨 0. 692 782 禹 稳 行 宫 0. 844 981 江汉 关 博 物 馆 0.908 176 
慎 湖北 省 美术 馆 0.728 325 东湖 樱花 园 0.681 611 汉阳 造 艺 术 区 0. 825 852 汉口 近代 建筑 群 0. 901 440 
人 
CO 木兰 古 门 0.131 494 武昌 起 义 纪念 馆 0.098 400 木兰 清凉 寨 一 0.003 026 紫 微 都 市 田园 0.023 875 
© 木兰 清凉 寨 0.013 309 归 元 禅 寺 0.084 988 九 真山 风景 区 -0.028 534 ”金龙 水 寨 生 态 乐 园 —0.032 508 
CN 九 真山 风景 区 —0.066 678 户 部 起 0.057 286 木兰 草原 一 0.056 063 木兰 清凉 寨 -0.043 515 
和 木兰 天 池 -0.121 245 杜 莎 夫人 蜡像 馆 —0.049 495 木兰 天 池 -0.132 850 木兰 天 池 —0.093 649 


绩 轩 的 平均 得 分 是 4.375 分 ,文化 感知 相似 度 标签 ” | 表示 该 类 标签 的 文化 感知 强度 ,数值 范围 是 [1, 10 ] ， 
相 呈 结果 的 平均 得 分 是 4.357 分 ,由 此 表明 笔者 所 提 | 由 前 文中 归 一 化 后 的 数值 乘 以 10 得 到 。 由 表 8 中 数 


出 网 隐 式 标签 生成 方法 具有 较 高 的 可 靠 性 。 据 可 知 ,湖北 省 博物 馆 的 整体 文化 感知 强度 是 5. 84， 
4.69 标签 展示 历史 文化 和 楚 文 化 的 感知 强度 都 是 10. 0 ,物质 文化 、 


生成 显 式 标 签 和 隐 式 标签 后 ,每 一 个 景点 都 既 可 | 非 物 质 文化 和 文化 活动 的 感知 强度 分 别 是 5.91、1. 19 

以 使 用 标签 云 构建 文化 资源 画像 ( 见 图 3) ,也 可 以 通 | 和 4.32。 用 户 可 根据 各 类 标签 的 具体 内 容 和 感知 强度 
过 表格 对 标签 进行 详细 展示 。 表 8 以 湖北 省 博物 馆 为 | 判断 景点 的 文化 资源 是 否 与 自己 的 偏好 相符 。 

例 ,展示 了 生成 的 各 类 标签 。 其 中 ,标签 类 别 后 的 数字 

表 8 湖北 省 博物 馆 文化 资源 标签 展示 


湖北 省 博物 馆 ”历史 文化 (10.0) ”越王 勾践 剑 文物 曾 侯 乙 编钟 建筑 青铜 器 四 爱 图 梅 瓶 兄 县 人 头骨 化 石 乐 曾 侯 乙 越王 勾践 音乐 ”表演 演奏 

(5.84) 楚 文 化 (10.0) 器 楚 国 曾 侯 乙 墓 吴 王 夫差 矛 瓷器 青花 瓷 睡 虎 地 秦 简 漆器 工艺 故事 历史 

4.4 标签 应 用 想 知道 武汉 有 哪些 景点 可 以 观赏 樱花 ,此 时 便 可 以 使 
利用 生成 的 文化 资源 标签 ,可 根据 用 户 的 需求 和 | 用 关键 词 “ 机 花 ” 进 行 检索 。 

偏好 ,提供 更 加 精准 的 检索 和 推荐 服务 。 下 面 对 标 签 这 里 存在 两 种 情况 :一 种 是 用 户 输入 的 关键 词 有 

在 景点 检索 和 推荐 两 个 方面 的 应 用 进行 分 析 和 示例 。 与 之 匹配 的 标签 , 另 一 种 是 关键 词 与 所 有 标签 都 不 匹 

4.4.1 景点 检索 配 。 针 对 以 上 两 种 情况 ,笔者 提供 了 基于 标签 内 容 的 
当 用户 有 较为 明确 的 兴趣 对 象 时 ,可 以 通过 关键 | 检索 和 基于 标签 语义 的 检索 两 种 方式 。 

词 进 行 景点 检索 。 例 如 ,用 户 听 闻 武 汉 的 樱花 很 有 名 ， (1) 基于 标签 内 容 的 检索 。 适 用 场景 :存在 与 检 
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索 的 关键 词 相 匹配 的 标签。 

检索 方法 :根据 用 户 输入 的 关键 词 , 检 索 出 所 有 标 
签 中 含有 该 关键 词 的 景点 ,并 对 景点 按 整 体 文化 感知 
强度 排序 后 展示 给 用 户 。 

检索 结果 :以 关键 词 “樱花 "为 例 , 根 据 以 上 方法 
得 到 的 Top5 景点 为 玫 匣 山 .武汉 大 学 .东湖 樱花 园 .县 
华 林 、 东 湖 磨 山 景区 。 

(2) 基于 标签 语义 的 检索 。 适 用 场景 :不 存在 与 
今 索 的 关键 词 相 匹 配 的 标签 。 

检索 方法 :首先 通过 已 训练 好 的 词 向 量 模型 ,获取 
关键 词 的 词 向 量 ,然后 计算 关键 词 与 景点 所 有 显 式 标 
签 的 余弦 相似 度 的 平均 值 ,并 将 景点 按 相似 度 大 小 排 
序 后 展示 给 用 户 。 
本 检索 结果 :假如 用 户 对 古典 建筑 感 兴趣 , 且 以 关键 
证 典 建筑 "进行 检索 ,此 时 会 发 现 标签 中 只 有 “十 
建 篇 " ,没有 “古典 建筑 ”。 根 据 上 述 基 于 标签 语义 的 
分 染 方 法 可 得 到 Top5 景点 列表 是 : 晴 川 阅 \ 长 春 观 , 归 
却 潮 寺 . 古 德 寺 、 黄 忽 楼 。 本 文 方法 除 给 出 检索 结果 
外 :还 可 对 结果 进行 解释 。 相 关 研 究 表明 ,将 检索 和 推 
裕 的 具体 原因 展示 给 用 户 ,可 显著 提升 用 户 对 结果 的 
偿 依 度 愉 -5 。 表 9 列举 了 检索 结果 的 Top5 景点 ,以 


及 对 结果 的 解释 。 


= 苹 9 关键 词 “古典 建筑 ”基于 标签 语义 的 检索 结果 


me 
= 检索 结果 Top5 对 结果 的 解释 
ng 克 该 景点 包含 的 以 下 标签 与 关键 词 相似 
= 晴 川 阁 古 建筑 建筑 建筑 群 楼 阁 铁 门 关 
see 长 春 观 古 建筑 建筑 建筑 群 道观 砍 堂 
二 归 元 祥 寺 古 建筑 建筑 建筑 群 大 雄 宝典 藏 经 阁 
古 德 寺 建筑 宗教 建筑 宝 殿 神 庙 
黄 鸟 楼 建筑 宝塔 牌坊 


4.4.2 景点 推荐 

用 户 信息 一 般 包括 性 别 \ 年 龄 等 个 人 基本 信息 ,以 
及 其 在 旅游 网 站 上 的 检索 记录 和 游览 历史 。 根 据 以 上 
信息 分 析出 用 户 的 兴趣 偏好 后 , 便 可 基于 文化 资源 标 
签 进行 个 性 化 推荐 。 针 对 不 同 的 服务 场景 ,笔者 提供 
了 3 种 推荐 方式 : 

(1) 基于 文化 主题 标签 的 推荐 。 适 用 场景 :已 根 
据 用 户 的 检索 记录 或 游览 历史 ,获知 了 用 户 的 文化 主 
题 仿 好。 

推荐 方法 :首先 ,根据 “文化 主题 一 景点 ”矩阵 ,得 
到 用 户 感 兴趣 的 文化 主题 下 的 所 有 景点 ;然后 , 既 可 以 
直接 根据 基于 主题 标签 的 文化 感知 强度 的 大 小 生成 推 
穴 列 表 ( 见 表 6) ,也 可 以 综合 文化 感知 强度 .景点 热度 


和 景点 好 评 度 等 多 种 因素 ,通过 指标 加 权 生 成 最 终 推 
荐 列表 。 

推荐 结果 :以 用 户 偏好 的 文化 主题 是 “生态 文化 ” 
为 例 , 表 10 展示 了 基于 不 同 因素 的 景点 推荐 结果 。 对 
比 结果 可 知 , 当 仅 考虑 文化 感知 强度 时 ,木兰 湖 、 东 湖 
麻山 景区 .金龙 水 寨 生态 乐园 等 景点 都 在 Top10 中 , 且 
排名 徘 前 。 当 综合 热度 或 好 评 度 等 因素 后 ,以 上 景点 
的 排名 出 现 明 显 下 降 。 实 际 上 ,如 果 仪 考虑 文化 感知 
强度 ,部 分 冷门 的 景点 可 能 会 获得 较 高 排名 ,例如 木兰 
湖 。 当 加 入 热度 或 好 评 度 后 ,可 以 通过 对 权 值 的 调整 
有 效 噜 除 部 分 过 于 冷门 或 好 评 度 低 的 景点 ,使 推荐 结 
果 能 更 好 地 满足 用 户 的 实际 需求 。 

表 10 “生态 文化 ”主题 景点 推荐 结果 对 比 


仅 考 虑 文化 感知 强度 ”文化 感知 强度 + 热度 ”文化 感知 强度 + 好 评 度 
的 Top10 推荐 结果 的 Top10 推荐 结果 的 Top10 推荐 结果 
东湖 樱花 园 海 昌 极 地 海洋 公园 东湖 樱花 园 
武汉 大 学 东湖 海洋 世界 武汉 大 学 
木兰 湖 武汉 大 学 中 国 地 质 大 学 逸夫 博物 馆 
中 国 地 质 大 学 逸夫 博物 馆 东湖 樱花 园 木兰 天 池 
木兰 云雾 山 中 国 地 质 大 学 逸夫 博物 馆 木兰 云雾 山 
东湖 磨 山 景区 木兰 天 池 咯 珈 山 
金龙 水 寨 生态 乐园 木兰 云雾 山 东湖 风景 区 
木兰 天 池 木兰 草原 木兰 清凉 寨 
木兰 清凉 寨 木兰 湖 武汉 植物 园 
东湖 风景 区 武汉 植物 园 汉口 江 滩 公 园 
(2) 基 于 显 式 标签 的 推荐 。 适 用 场景 :已 根据 用 


户 的 检索 记录 或 游览 历史 ,获知 了 用 户 的 文化 类 别 
偏好 。 

推荐 方法 :以 用 户 偏好 是 “文化 活动 ”为 例 ,首先 
根据 “文化 活动 一 景点 "和 矩阵 ,得 到 按 文化 活动 感知 强 
度 排序 的 景点 列表 ( 见 表 4) ;然后 根据 4.4.2(1) 小 节 
所 述 方法 生成 推荐 列表 。 

推荐 结果 : 因 推荐 方法 与 4.4.2(1) 小节 相同 , 故 
不 再 具体 展示 。 

(3) 基于 文化 感知 相似 度 标 签 的 推荐 。 适 用 场 
景 : 当 已 知 用 户 对 某 个 景点 感 兴趣 ,或 用 户 已 经 从 提供 
的 推荐 列表 中 选 定 某 个 景点 时 ,可 继续 向 用 户 推荐 与 
该 景点 相似 的 其 他 景点 。 

推荐 方法 : 既 可 以 按 相似 度 大 小 排序 生成 推荐 列 
表 ( 见 表 7) ,也 可 以 综合 景点 热度 、 景 点 好 评 度 等 因 
素 ,通过 指标 加 权 生成 推荐 列表 。 

推荐 结果 :以 用 户 选 定 的 景点 是 “ 古 德 寺 ” 为 例 ， 
表 11 展示 了 基于 文化 感知 相似 度 + 景 点 热度 + 景点 
好 评 度 的 Top10 推荐 结果 。 对 推荐 结果 的 解释 一 直 是 
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个 性 化 推荐 研究 中 的 重点 和 难点 问题 ,本 文 方法 在 给 
出 推荐 结果 的 同时 ,也 可 展示 给 用 户 每 一 个 景点 的 具 
体 推 荐 理由 ,这 有 助 于 提升 用 户 对 结果 的 接受 度 和 信 


得 到 不 同类 别 的 标签 。 通 过 指标 加 权 生 成 推荐 列表 
时 ,指标 的 权 值 仅 使 用 了 经 验 值 , 在 实际 应 用 中 应 根据 
用 户 偏 好 进行 动态 设置 。 此 外 ,对 隐 式 标签 生成 结果 


任 度 。 进行 评估 时 ,参与 评估 的 专家 数 较 少 也 是 本 文 的 不 足 
表 11 “ 古 德 寺 ”" 相 似 景点 推荐 结果 和 推荐 理由 之 处 。 今 后 的 工作 将 从 3 个 方面 展开 :中 研究 如 何 实 
文化 感知 相似 度 + 推荐 理 现 显 式 标签 的 自动 分 类 ;G@) 指 标 权 值 会 对 推荐 结果 产 
ee 相同 的 文化 主题 相同 的 标签 生 重 大 影响 ,应 将 用 户 偏好 与 权 值 关联 起 来 ,研究 基于 
Re 用 户 偏好 的 权 值 动态 设置 方法 ,使 推荐 结果 更 加 符合 
江汉 关 博 物 馆 建筑 文化 建筑 历史 用 户 的 实际 需求 ;@ 人 研究 如 何 对 基于 文化 资源 的 景点 
归 元 禅 寺 建筑 文化 宗教 文化 寺庙 香火 建筑 佛像 检索 和 推荐 结果 进行 有 效 的 量化 评估 。 
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CN 笔者 针对 文化 旅游 信息 检索 困难 、 推 荐 形式 单一 
的 问题 ,提出 了 一 种 基于 在 线 旅游 信息 的 景点 文化 次 
源 标 签 自动 生成 方法 ,同时 针对 信息 服务 中 的 不 同 场 
是 供 了 基于 标签 内 容 和 基于 标签 语义 的 两 种 检索 
以 及 基于 文化 主题 标签 .基于 显 式 标签 和 基于 文 
化 感知 相似 度 标签 的 3 种 推荐 方法 。 并 以 武汉 市 的 景 
点 久 例 ,利用 真实 数据 集 验 证 了 所 提 方 法 的 可 行 性 。 
人 9 本文 的 主要 贡献 包括 :提出 从 文化 资源 视角 对 
景点 进行 描述 .检索 和 推荐 ,设计 了 文化 资源 标签 体 
系 ,为 旅游 景点 的 组 织 管理 提供 了 新 的 思路 ;加 提出 一 
种 基于 特征 词 第 选 和 噪声 词 过 滤 的 文化 资源 显 式 标签 
生成 方法 ,实验 结果 表明 , 相 比 于 传统 方法 ,该 方法 具 
有 更 好 的 性 能 ;@ 设 计 文 化 感知 强度 和 文化 感知 相似 
度 的 计算 方法 ,实验 表明 ,文化 感知 强度 和 文化 感知 相 
似 度 能 够 有 效 反映 不 同 景点 的 文化 特征 差异 和 用 户 对 
文化 资源 感知 的 实际 情况 ,同时 也 是 景点 检索 结果 排 
序 和 景点 推荐 的 重要 依据 ;@ 基 于 生成 的 标签 ,提供 了 
两 种 检索 方法 和 3 种 推荐 方法 , 且 所 提 方 法 均 具备 可 
解释 性 ,有 效 提升 了 检索 和 推荐 的 透明 度 以 及 用 户 对 
结果 的 信任 度 ,同时 也 为 其 他 领域 的 推荐 解释 性 研究 
提供 了 参考 。 
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四 Research on Automatic Generation and Application of Cultural Resource Tags of Scenic Spots 
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Abstract: | Purpose/ Significance | To generate high-quality cultural resource tags for scenic spots, and solve 
the problems of difficult information retrieval and signal recommendation form in cultural tourism services. | Method/ 
Process | First, a tag system for cultural resources including explicit and implicit tag types was designed; then, an 
explicit tag generation method based on feature word filtering and noise word filtering was proposed, and the calcula- 
tion method of cultural perception intensity and cultural perception similarity in implicit tags was designed, and cul- 
tural resource tags of scenic spots were generated based on the above methods; finally, for different scenarios in 
tourism information services, retrieval methods and recommendation methods based on cultural resource tags were pro- 
vided. | Result/ Conclusion | Taking the real tourism data of Wuhan as an example to conduct empirical research. 
The results show that the tags generated based on this method can accurately describe the cultural resource character- 
istics of scenic spots, and the retrieval and recommendation algorithms based on tags have strong interpretability, 
which can effectively improve the transparency of information services and users ”trust in the results, and have refer- 
ence value for recommendation and interpretation research in other fields. 
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